標簽【Big Data】 - 碼上歡樂

Spark安裝與學習

摘要：Spark是繼Hadoop之后的新一代大數據分布式處理框架，由UC Berkeley的Matei Zaharia主導開發。我只能說是神一樣的人物造就的神器，詳情請猛擊http://w ...

一，問題描述搭建的用來測試的單節點Kafka集群（Zookeeper和Kafka Broker都在同一台Ubuntu上），在命令行下使用：創建了一個3個分區的Topic如下：（T ...

一，問題描述數據格式： id, timeStamp,count 條件1：查詢某個時間段內的數據： timeStamp BETWEEN startTime AND endTime。比如 tim ...

原文鏈接：[https://jiang-hao.com/articles/2019/big-data-lambda-architecture.html](https://jiang-hao.com/ ...

一、簡介 ElasticSearch和Solr都是基於Lucene的搜索引擎，不過ElasticSearch天生支持分布式，而Solr是4.0版本后的SolrCloud才是分布式版本，Solr的分布 ...

本文記錄如何更新MongoDB Collection 中的Array 中的元素。假設Collection中一條記錄格式如下：現要刪除scores 數組中，"type" 為 "homework ...

Scala

學習路上的新起點：大數據Scala + Spark +（HDFS + HBase），本文主要介紹下Scala的基本語法和用法吧。最后再簡單介紹一種Java開發工具IntelliJ IDEA的使用。 ...

Kafka session.timeout.ms heartbeat.interval.ms參數的區別以及對數據存儲的一些思考在計算機世界中經常需要與數據打交道，這也是我們戲稱CURD工程師的原因 ...

Kafka基本原理

簡介 Apache Kafka是分布式發布-訂閱消息系統。它最初由LinkedIn公司開發，之后成為Apache項目的一部分。Kafka是一種快速、可擴展的、設計內在就是分布式的，分區的和可復制的提 ...

--spark啟動 --退出 or 1、查看已有的database 2、創建數據庫 ...